2024-09-12
Nach Kontrolle für die Personenfähigkeit korrelieren die Items nicht mehr. Der einzige Grund dafür, dass die Items zusammenhängen, ist also, dass die Antwort von diesem Konstrukt beeinflusst wird. Durch die Kontrolle für die Personenfähigkeit halten wir also den Fähigkeitswert konstant (alle Personen haben die gleiche Fähigkeit),
Wir haben die Invarianz-Eigenschaft von IRT bereits kennen gelernt: Itemparameter sind gleich über verschiedene Gruppen. Die Wahrscheinlichkeit für eine korrekte Antwort auf ein Item hängt nur von \(\theta\) ab. Nicht von anderen Personen in der Stichprobe.
Wie schaffen wir das aber, wenn wir anhand von verschiedenen Gruppen kalibrieren? Wir müssen die Werte, die wir aus diesen Kalibrierungen bekommen, irgendwie in einen Zusammenhang setzen.
WARUM?
Sie hängen ja von den latenten VAriablen in der Stichprobe ab. Wenn wir eine sehr gute Stichprobe haben, und eine sehr schwache, dann werden trotzdem bei beiden der Mittelwert der Latenten Variable 0 und die SD 1 sein. Mittelschwere Items werden aber in der schwachen Gruppe eher positive Schwierigkeiten haben, in der starken Gruppe eher negative. (Beispiel nochmal genauer ausführen, evtl. mit Grafik, Ich hatte dazu etwas im ersten Buch, dass ich gelesen habe).
Group 1: \(\theta \sim N(0,1)\) Group 2: \(\theta \sim N(1, 1.4)\)
Für die Kalibrierung legen wir jetzt aber fest, dass gilt: Group 1: \(\theta \sim N(0,1)\) Group 2: \(\theta \sim N(0,1)\)
Jetzt ist ein guter Zeitpunkt, und uns ein sehr mächtiges Werkzeug anzuschauen: Datensimulation.
Geht zu den Übungen und probiert euch aus!
Eventuell nich alles simulieren lassen, sondern nur das 2PL Modell.
Linking/Equating
Abbildung z.B. mit Verteilung von theta scores, die nochmal zeigt was das Problem ist. Dann kann man bestimmte Items markieren, und die Verteilungen entsprechend dieser markierten Items verschieben.
Embretson 2000, S. 253
\[ \theta_Y = A \theta_X + B \]
Personen bearbeiten beide Tests. Personenfähigkeit wird basierend auf einem Referenztest geschätzt, und dann fixiert und konstant gehalten, wenn andere Testformen bearbeitet werden. Die Fähigkeitswerte werden dann genutzt, um Itemparameter auf beiden Testformen zu schätzen.
\[ \theta* = x\theta+y \]
…
Ziel: “Linking constants” \(x\) und \(y\) findend, welche die Item parameter aus den beiden Gruppen auf der selben Skala plazieren. Deutlich machen, für welche Art Modell nutzbar! Nochmal mit dem neueren Buch rübergehen, das geht noch mehr in die Tiefe.
\[ x = \frac{\sigma_A}{\sigma_B} \]
\[ y = \overline{\beta}_A - x(\overline{\beta}_B) \]
Und dann einsetzen in \[ \theta* = x\theta+y \]
etc.
mal ausprobieren!
Probleme: linking constants können stark von Outliern beeinflusst werden, und von den differential standards errors of the item difficutly estimates - Robust procedures exist.
Nur die item difficulty parameters werden zur berechnung der Linking constants genutzt.
Alternative: Characteristic curve methods
Versuch, die Linking constants so zu berechnen, dass die test charctersitic curves so ähnlich wie möglich sind. Nutzen daher alle item parameter um die Linking constants zu finden. computationally more expensive. Empirical research zeigt keine großen Unterschide zwischen beiden Methoden? Nochmal selber recherchiereen.
Im Embretson machen sie eine kleine Simulation. Könnten wir auch machen, entweder als aufgabe oder demonstrieren. - Man könnte die Linking constants setzen, gukcen was das mit den schwierikeiten macht, und die Simulierten Werte wieder rekapitulieren.
Raschtrees vorstellen? Ansonsten Embretson ab Linking auch gut.